# -*- coding:utf-8 -*-


import pandas as pd


def remove_duplicates_by_title(input_file, output_file):
    """
    去除xlsx文件中title列的重复数据

    参数：
    input_file: 输入文件路径
    output_file: 输出文件路径
    """
    try:
        # 读取Excel文件
        df = pd.read_excel(input_file)

        # 检查是否存在title列
        if 'title' not in df.columns:
            raise ValueError("Excel文件中没有'title'列")

        # 去除重复（保留第一个出现的记录）
        df_clean = df.drop_duplicates(subset=['title'], keep='first')

        # 保存到新文件
        df_clean.to_excel(output_file, index=False)

        print(f"去重完成！原始记录数: {len(df)}，去重后记录数: {len(df_clean)}")
        print(f"结果已保存到: {output_file}")

    except Exception as e:
        print(f"处理失败: {str(e)}")


# 使用示例
input_path = '裤子_20250412-1928_FromTB.xlsx'  # 替换为你的输入文件路径
output_path = 'data/裤子.xlsx'  # 输出文件路径
remove_duplicates_by_title(input_path, output_path)